RhythmFormer: Explicación XAI de la atención periódica dispersa en rPPG
Descubre cómo RhythmFormer y las métricas de fidelidad SaCo mejoran la interpretabilidad en rPPG. Análisis cuantitativo de atención dispersa.
Descubre cómo RhythmFormer y las métricas de fidelidad SaCo mejoran la interpretabilidad en rPPG. Análisis cuantitativo de atención dispersa.
Acelera hasta 10x la difusión de video autoregresiva con compresión de caché y atención dispersa, manteniendo calidad visual y memoria constante.
Descubre cómo MiniMax Sparse Attention (MSA) reduce 28.4 veces el cómputo de atención en contextos de 1M tokens, logrando aceleraciones de hasta 14.2x en prefill y 7.6x en decoding en GPUs H800.
Atención dispersa para contextos de 1M tokens: MiniMax Sparse Attention reduce cómputo 28x y acelera prefill 14x y decoding 7x en GPUs H800.
Descubre cómo Sparrow acelera hasta 2.4x el rollout en RL de modelos de lenguaje usando atención dispersa dinámica sin perder estabilidad.
Con MAGE, la atención dispersa acelera hasta 6.82x la inferencia en contexto largo sin pérdida de precisión.
Vortex es un sistema que acelera el diseño de algoritmos de atención dispersa, logrando hasta 3.46x más rendimiento en LLMs. Ideal para agentes de IA que buscan optimizar la inferencia.
Optimiza la inferencia de LLMs con CLSA: atención dispersa entre capas que comparte índices de enrutamiento, logrando hasta 7.6x de aceleración en decodificación.
Modelos de atención global y dispersa en RNN logran Sortino ratio de 2.0 en valoración de activos durante COVID-19. Resultados con 420 acciones de EE.UU.
Descubre SparDA, una arquitectura que acelera la inferencia de LLM de contexto largo hasta 5.3x, reduciendo el cuello de botella del caché KV.
Descubre VaSE, un método de evicción de caché KV que protege valores grandes y usa estocasticidad para mejorar precisión en modelos de razonamiento. Reduce memoria 4x sin perder rendimiento.
Descubre Vegas: acelera LLMs hasta 2.81x usando atención dispersa guiada por verificación. Sin pérdida, código abierto.
Murmur: sistema de inferencia para ASR de larga duración que reduce la latencia 4.2x sin degradar la precisión. Atención dispersa y evicción de caché KV.
Mueve la consulta en lugar del caché KV y reduce la latencia en atención entre GPUs. Optimiza clusters H100 con RDMA.
MiniMax-M3: el modelo de IA abierto que supera a GPT-5.5 y Gemini en benchmarks clave, por solo el 5-10% del costo. ¡Conoce sus capacidades!
MiniMax lanza M3 con arquitectura MSA, contexto de 1M de tokens y multimodalidad nativa. Supera a GPT-5.5 en SWE-Bench Pro. API ya disponible.
Light Interaction acelera hasta 2.59x la inferencia de modelos de video interactivos sin reentrenamiento, manteniendo calidad visual. Ideal para simulación y navegación virtual.
Descubre OBCache, la técnica de poda de caché KV que optimiza la memoria en LLMs para inferencia en contextos largos sin sacrificar precisión.